越来越多的科学发现需要复杂而可扩展的工作流程。工作流程已成为``新应用程序'',其中多尺度计算活动包括多个和异构的可执行任务。特别是,将AI/ML模型引入传统的HPC工作流程已成为高度准确建模的推动力,与传统方法相比,通常会减少计算需求。本章将讨论将AI/ML模型集成到HPC计算的各种模式,从而导致不同类型的AI耦合HPC工作流程。激励了跨科学领域的AI/ML和HPC耦合的需求越来越多,然后以每种模式的许多生产级用例来体现。我们还讨论了极端尺度AI耦合的HPC广告系列的主要挑战 - 任务异质性,适应性,性能 - 以及旨在解决这些问题的几种框架和中间件解决方案。尽管HPC工作流程和AI/ML计算范例都是独立有效的,但我们强调了它们的整合和最终收敛如何导致一系列领域的科学性能的显着改善,最终导致了科学探索,否则就无法实现。
translated by 谷歌翻译
异质的科学工作流程包括许多类型的任务和依赖性。能够在异质平台上安排和提交不同任务类型的中间件必须允许对任务的异步执行,以改善资源利用,任务吞吐量和减少MakePAN。在本文中,我们介绍了一类重要的异构工作流程,即AI驱动的HPC工作流程,以调查异步任务执行要求和属性。我们对任意工作流程允许的异步性度进行了建模,并提出了关键指标,这些指标可用于确定使用异步执行时的定性利益。我们的实验代表了重要的科学驱动因素,在峰会上进行了大规模进行,并且由于异步执行而引起的性能增强与我们的模型一致。
translated by 谷歌翻译
The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
translated by 谷歌翻译
Machine Learning models capable of handling the large datasets collected in the financial world can often become black boxes expensive to run. The quantum computing paradigm suggests new optimization techniques, that combined with classical algorithms, may deliver competitive, faster and more interpretable models. In this work we propose a quantum-enhanced machine learning solution for the prediction of credit rating downgrades, also known as fallen-angels forecasting in the financial risk management field. We implement this solution on a neutral atom Quantum Processing Unit with up to 60 qubits on a real-life dataset. We report competitive performances against the state-of-the-art Random Forest benchmark whilst our model achieves better interpretability and comparable training times. We examine how to improve performance in the near-term validating our ideas with Tensor Networks-based numerical simulations.
translated by 谷歌翻译
网络威胁情报(CTI)共享是减少攻击者和捍卫者之间信息不对称的重要活动。但是,由于数据共享和机密性之间的紧张关系,这项活动带来了挑战,这导致信息保留通常会导致自由骑士问题。因此,共享的信息仅代表冰山一角。当前的文献假设访问包含所有信息的集中数据库,但是由于上述张力,这并不总是可行的。这会导致不平衡或不完整的数据集,需要使用技术扩展它们。我们展示了这些技术如何导致结果和误导性能期望。我们提出了一个新颖的框架,用于从分布式数据中提取有关事件,漏洞和妥协指标的分布式数据,并与恶意软件信息共享平台(MISP)一起证明其在几种实际情况下的使用。提出和讨论了CTI共享的政策影响。拟议的系统依赖于隐私增强技术和联合处理的有效组合。这使组织能够控制其CTI,并最大程度地减少暴露或泄漏的风险,同时为共享的好处,更准确和代表性的结果以及更有效的预测性和预防性防御能力。
translated by 谷歌翻译
本文通过匹配的追求方法开发了一类低复杂设备调度算法,以实现空中联合学习。提出的方案紧密跟踪了通过差异编程实现的接近最佳性能,并且基于凸松弛的众所周知的基准算法极大地超越了众所周知的基准算法。与最先进的方案相比,所提出的方案在系统上构成了较低的计算负载:对于$ k $设备和参数服务器上的$ n $ antennas,基准的复杂性用$ \ left缩放(n^)2 + k \ right)^3 + n^6 $,而提出的方案量表的复杂性则以$ 0 <p,q \ leq 2 $为$ k^p n^q $。通过CIFAR-10数据集上的数值实验证实了所提出的方案的效率。
translated by 谷歌翻译
单纯性神经网络(SNN)最近被出现为图表学习中最新方向,这扩大了从节点空间到图形上的单纯复合体的卷积体系结构的想法。在目前的实践中,单纯复合资源允许我们描述高阶交互和多节点图结构的节点中的节点之间的成对关系进行预先定位通过在卷积操作和新块Hodge-Laplacian之间建立连接时,我们提出了第一个用于链接预测的SNN。我们的新块单纯性复杂神经网络(BSCNET)模型通过系统地掺入不同尺寸的多个高阶图结构之间的突出相互作用来推广现有的图形卷积网络(GCN)框架。我们讨论BSCNET背后的理论基础,并说明了其在八个现实世界和合成数据集上的链接预测的实用性。我们的实验表明,BSCNETS在保持低计算成本的同时优于最先进的模型,同时保持最高的余量。最后,我们展示了BSCnets作为追踪Covid-19等传染病传播的新有前途的替代品,并测量医疗保障风险缓解策略的有效性。
translated by 谷歌翻译
主题之间的转换是人类对话的自然组成部分。虽然已经在对话中研究了几十年来的主题过渡,但只有少数基于基础的研究,以调查主题过渡的微妙之处。因此,本研究注释了来自交换机语料库的215对话,并调查参与者和转弯/主题的主题转换,主题转换的多数,主题转换序列的变量如何相关。这项工作提出了对交换机语料库中的主题过渡的实证研究,然后在域内(ID)测试集的精度为83%的精度建模转换,10个Out-Domain}(OOD)测试集82%。设想,这项工作将有助于在开放域对话系统中模拟人类的像语如主题转换。
translated by 谷歌翻译
我们来看看如何机器学习是获得独立的媒体集合中的项目的性质技术可用于自动嵌入故事写成这样的集合。要做到这一点,我们使用抽取歌曲的节奏,使音乐播放列表遵循叙事弧模型。我们的工作规定了一个开源的工具,使用预训练神经网络模型,以提取一组原始音频文件的全球节奏和应用这些措施,创造一个叙事的播放清单。此工具可在https://github.com/dylanashley/playlist-story-builder/releases/tag/v1.0.0
translated by 谷歌翻译
灵巧的操纵仍然是机器人技术中的一个空缺问题。为了协调研究界为解决这个问题的努力,我们提出了共同的基准。我们设计和构建了机器人平台,该平台托管在MPI上供智能系统托管,可以远程访问。每个平台由三个能够敏捷物体操纵的机器人手指组成。用户能够通过提交自动执行的代码(类似于计算群集)来远程控制平台。使用此设置,i)我们举办机器人竞赛,来自世界任何地方的团队访问我们的平台以应对具有挑战性的任务ii)我们发布了在这些比赛中收集的数据集(包括数百个机器人小时),而我们为研究人员提供了访问自己项目的这些平台。
translated by 谷歌翻译